سیدابوالفضل طباطبایی؛ ولی درهمی؛ راضیه شیخپور؛ محمدرضا پژوهان
دوره 13، شماره 4 ، دی 1398، ، صفحه 337-348
چکیده
انتخاب ویژگی یکی از فرایندهای پیشپردازش دادهها در مباحث مربوط به یادگیری ماشین و دادهکاوی به شمار میرود که در برخی زمینهها مانند کار با دادههای ریزآرایه در بیوانفورماتیک که با مشکل ابعاد بالای دادهها در مقابل تعداد کم نمونهها مواجه است، از اهمیت ویژهای برخوردار میباشد. انتخاب ویژگیهای (ژنهای) موثر در تشخیص بیماری ...
بیشتر
انتخاب ویژگی یکی از فرایندهای پیشپردازش دادهها در مباحث مربوط به یادگیری ماشین و دادهکاوی به شمار میرود که در برخی زمینهها مانند کار با دادههای ریزآرایه در بیوانفورماتیک که با مشکل ابعاد بالای دادهها در مقابل تعداد کم نمونهها مواجه است، از اهمیت ویژهای برخوردار میباشد. انتخاب ویژگیهای (ژنهای) موثر در تشخیص بیماری از دادههای ریزآرایه نقش مهمی در تشخیص زودهنگام بیماری و راههای مواجهه با آن ایفا میکند. در روشهای انتخاب ویژگی مبتنی بر تئوری اطلاعات که طیف گستردهای از روشهای انتخاب ویژگی را شامل میشوند، از مفهوم بینظمی برای تعریف معیارهای مرتبط بودن، افزونگی و مکمل بودن ویژگیها استفاده میشود. در این مقاله به جای بینظمی از مفهوم پیوستگی خالص برای پیشنهاد یک معیار جدید مرتبط بودن استفاده شده است. در این معیار پیشنهادی، برای کنترل و کاهش افزونگی، ارتباط یک ویژگی با تکتک کلاسها به طور جداگانه بررسی شده است در حالی که در اکثر روشهای فیلتر، ارزش یک ویژگی بر اساس ارتباط آن با کل کلاسها سنجیده میشود. این راهکار باعث شده که ویژگیهای موثر در هر کلاس به تفکیک شناسایی شوند، در حالی که امکان شناسایی ویژگیهای مشترک نیز وجود دارد. یکی دیگر از مشکلهای موجود در برخی از روشها، مسالهی گسستهسازی دادهها است. در روش پیشنهادی این مقاله، با استفاده از یک تبدیل مبتنی بر یکریختی، ضمن استفاده از مزایای گسستهسازی، از درگیر شدن با پیچیدگیهای آن نیز اجتناب شده است. برای مقایسهی روش پیشنهادی با تعدادی از روشهای مرتبط، از هفت مجموعهی دادهی ریزآرایه مربوط به انواع سرطان به همراه سه دستهبند پرکاربرد بیزین ساده، k-نزدیکترین همسایه و ماشین بردار پشتیبان استفاده شده است. نتایج تجربی نشان دهندهی کارایی روش ارائه شده بر اساس دو پارامتر دقت دستهبندی و تعداد ژنهای انتخابی میباشد.